CONTRASTE DE HIPÓTESIS PARÁMÉTRICOS

PARÁMÉTRICOS vs NO PARÁMÉTRICOS

Los métodos paramétricos: se usan para estudiar si una determina afirmación acerca de cierto parámetro poblacional es confirmada o invalidada por los datos de una muestra extraída de dicha población bajo una distribución de probabilidad conocida.

En general hacemos referencia a parámetros de una población (a la media, a la varianza, a una proporción…).

Lo métodos no paramétricos: se encargan de analizar datos que no tienen una distribución particular y aunque también establece una hipótesis estadística, los datos no están organizados o no dependen de una distribución de probabilidad conocida.

CONTRASTE DE HIPÓTESIS PARÁMÉTRICOS

Generalmente, la forma en que contrastamos o validamos la Ho para variables contínuas es usando una distribución probabilistica que haga referencia a la población (distribución paramétrica) como es la DISTRIBUCIÓN NORMAL.

  • Estas distribuciones pueden ser usadas como modelos para efectuar estimaciones y para desarrollar ciertos test estadísticos

  • La curva normal es característica de una serie de fenómenos y como tal, posee propiedades que permiten distinguirla (ya visto en clases pasadas)

  • En lo esencial, una curva normal representa una distribución donde los casos más comunes son los valores centrales, disminuyendo paulatinamente hacia los casos extremos (más altos y más bajos)

CONTRASTE DE HIPÓTESIS PARÁMÉTRICOS

La cantidad desviaciones estándar en torno a la media se denominan puntajes Z

TIPOS DE CONTRASTES

Bilateral

Ho: La Población es igual a la Muestra

H1: La Población es diferente a la Muestra

Unilateral a la derecha

Ho: La Población es menor o igual a la Muestra

H1: La Población es mayor que la Muestra

Unilateral a la izquierda

Ho: La Población es mayor o igual a la Muestra

H1: La Población es menor que la Muestra

VALORES \(\alpha\) CON SUS RESPECTIVOS VALORES CRÍTICOS Z

Confianza 90% 95% 99% 99.5%
\(\alpha\) 0.10 0.05 0.01 0.005
Z de una cola -1.28
o
+1.28
-1.645
o
+1.645
-2.33
o
+2.33
-2.58
o
+2.58
Z de dos colas -1.645
y
+1.645
-1.96
y
+1.96
-2.58
y
+2.58
-2.81
y
+2.81


Por ejemplo, supongamos que vamos a trabajar con una confianza del 95% (\(\alpha\)=0.05):

TEST PARAMÉTRICOS MAS USADOS

PRUEBAS O TEST DE CONTRASTE DE HIPÓTESIS PARAMÉTRICOS MAS USADOS

APLICACIÓN DEL T-TEST

  • El t-test es la prueba más usada y posee una serie de características, ya explicadas en clases anteriores.

  • El ámbito de acción de t-test es en muestras de 30 o menos elementos.

  • Existe una distribución t teórica para cada tamaño de la muestra, por lo que “Existe una distribución para cada uno de los grados de libertad.

  • Sin embargo, se puede aplicar en muestras mayores de 30, dado que a medida que se incrementan los grados de libertad su distribución se aproxima a la normal. Por tanto el t-test se aproxima a un z-test cuando “n” tiende a infinito.

  • Para ello se deben cumplir ciertos supuestos: el CRITERIO DE NORMALIDAD y el CRITERIO DE HOMOCEDASTICIDAD cuando se comparan dos muestras.

CONDICIONES PARA APLICAR AL T-TEST

El CRITERIO DE NORMALIDAD es el más importante. Aunque suele cumplirse para muestras grandes (n > 100), debe explorarse siempre, con gráficos y pruebas de normalidad.

El no cumplimiento de este requisito conlleva a la necesidad de efectuar ajustes en los datos medidos (transformaciones), o bien recurrir a pruebas estadísticas no paramétricas.

El CRITERIO DE HOMOCEDASTICIDAD es menos exigente, pero no por ello se debe dejar de considerar. Normalmente, la violación a este supuesto se asume en aquellos casos en que la dispersión (variancia) de una muestra es más del doble que la otra.

El estadístico de Levene mide la homogeneidad de las variancias

Existen alternativas para aplicar pruebas paramétricas asumiendo varianzas desiguales

USOS FRECUENTES DEL T-TEST

Entre los usos más frecuentes de las pruebas t se encuentran:

  • El test de posición de muestra única por el cual se comprueba si la media de una población que se conoce posee una distribución normal, tiene un valor especificado en una hipótesis nula.
  • El test de posición para dos muestras, por el cual se comprueba si las medias de dos poblaciones distribuidas en forma normal son iguales. Con frecuencia se les llama, pruebas de muestras independientes.
  • El test de hipótesis nula por el cual se demuestra que la diferencia entre dos respuestas medidas en las mismas unidades estadísticas es cero. Esto con frecuencia es referido como prueba t de mediciones apareadas o repetidas.

USOS FRECUENTES DEL T-TEST

COMPARACIÓN ENTRE DOS GRUPOS

  • Se trata de comparar grupos definidos por una variable binominal (dos categorías) y que están constituidos por datos numéricos o continuos

  • El objetivo es establecer la probabilidad de que ambas muestras pertenezcan o no a una misma población

Por ejemplo:

  • Caracteres morfológicos de individuos como la estatura o peso por sexo biológico
  • Dimensiones osteológicas y craneométricas por grupo etario (adultos/sub-adultos)
  • Consumo en gramos/kcl de productos alimenticios por estados de salud (normal/obseso)
  • Valores bioquímicos como el colesterol y triglicéridos por estados de salud (normal/obseso)
  • Valores de aptitud física como potencia aeróbica o resistencia entre deportistas de alto rendimiento y rendimiento intermedio

Para todos estos casos, se entiende que la variable independiente es la categórica y la dependiente es la numérica o continua

USOS FRECUENTES DEL T-TEST

El t-test opera calculando la probabilidad de que dos muestras provengan de dos poblaciones con las misma media, donde la hipótesis nula es:

\[H_{0}: \bar{x}_{1} = \bar{x}_{2}\]

USOS FRECUENTES DEL T-TEST

Por lo tanto, el valor t obtenido se compara con los valores que se encuentran en la distribución t de student

EJEMPLO DE CONTRASTE DE HIPÓTESIS PARA LA MEDIA

Se conoce que el promedio de talla de una determinada población es de 178 cms con una desviación típica de 1,5 cms. Para saber si esos valores han cambiado en el tiempo, se toma una muestra de 55 individuos, cuya talla promedio es de 178,5 cms. Contraste la Ho con una confianza del 95%

Datos:

\(\bar{x} = 178.5\)

\(\mu = 178\)

\(S_{x}=1.5\)

n = 55

\(Z_{95\%} = 1.96\)

Entonces:

\(H_{0}: \bar{x} = \mu\)

\(H_{i}: \bar{x} \neq \mu\)

Luego, sustituimos y operamos:

\(Z = \frac{178.5-178}{1.5/\sqrt{55}}=\frac{0.5}{0.2023}=2.47\)

Decisión: se rechaza la Ho, dado que \(Z_{c}\) > 1,96

El p-valor es: 0.01343347 y como es menor a 0.05, Rechazamos la Ho

EJEMPLO DE CONTRASTE DE HIPÓTESIS PARA LA MEDIA

El mismo ejercicio pero usando la prueba t de Student

Datos:

\(\bar{x} = 178.5\)

\(\mu = 178\)

\(S_{x}=1.5\)

n = 55

\(gl = n-1 = 54\)

\(t_{95\%} = 2.005\)

Entonces:

\(H_{0}: \bar{x} = \mu\)

\(H_{i}: \bar{x} \neq \mu\)

Luego, sustituimos y operamos:

\(t = \frac{178.5-178}{1.5/\sqrt{55}}=\frac{0.5}{0.2023}=2.47\)

Decisión: se rechaza la Ho, dado que \(t_{c}\) > 2.005

El p-valor es: 0.01713003 y como es menor a 0.05, Rechazamos la Ho

CONTRASTE PARA LA DIFERENCIA DE 2 MEDIAS MUESTRALES

Se tomó la talla de dos muestras independientes de 55 y 63 personas con promedio de 176,8 cms y des tip de 1,2 cms para la muestra 1; y un promedio de 176,2 cms y des tip de 1,4 cms para la muestra 2. Determine si existen deferencias poblacionales a un nivel del 95%.

Datos:

\(\bar{x}_{1} = 176.8\)

\(\bar{x}_{2} = 176.2\)

\(S_{x1}=1.2\) –> \(S_{x1}^{2}=1.44\)

\(S_{x2}=1.4\) –> \(S_{x2}^{2}=1.96\)

\(n_{1} = 55\)

\(n_{2} = 63\)

\(Z_{95\%} = 1.96\)

Entonces:

\(H_{0}: \bar{x}_{1} = \bar{x}_{2}\)

\(H_{i}: \bar{x}_{1} \neq \bar{x}_{2}\)

Luego, sustituimos y operamos:

\(Z = \frac{176.8-176.2}{\sqrt{\frac{1.44}{55}+\frac{1.96}{63}}}=\frac{0.6}{0.2394}=2.51\)

Decisión: se rechaza la Ho, dado que \(Z_{c}\) > 1,96

El p-valor es: 0.01207312 y como es menor a 0.05, Rechazamos la Ho

CONTRASTE PARA LA DIFERENCIA DE 2 MEDIAS MUESTRALES

El mismo ejercicio pero usando la prueba t de Student

Datos:

\(\bar{x}_{1} = 176.8\)

\(\bar{x}_{2} = 176.2\)

\(S_{x1}=1.2\) –> \(S_{x1}^{2}=1.44\)

\(S_{x2}=1.4\) –> \(S_{x2}^{2}=1.96\)

\(n_{1} = 55\)

\(n_{2} = 63\)

\(gl = (n_{1}-1)+(n_{2}-1) = n_{1}+n_{2}-2= 116\)

\(t_{95\%} = 1.98\)

Entonces:

\(H_{0}: \bar{x}_{1} = \bar{x}_{2}\)

\(H_{i}: \bar{x}_{1} \neq \bar{x}_{2}\)

Luego, sustituimos y operamos:

\(S_{p}=\sqrt{\frac{(55*1.44)+(63*1.96)}{(55+63)-2}}=1.32\)

\(t = \frac{176.8-176.2}{1.32*\sqrt{\frac{1}{55}+\frac{1}{63}}}=2.46\)

Decisión: se rechaza la Ho, dado que \(t_{c}\) > 1,98

El p-valor es: 0.01537293 y como es menor a 0.05, Rechazamos la Ho

CONTRASTE DE HIPOTESIS PARA PROPORCIONES

En una muestra de 120 niños en edad escolar, se encontró que 30 de ellos están bajo peso. La Unidad Educativa ha venido reportando que la proporción de bajo peso para la edad es del 20%. Contrastar la Ho a un nivel del 95%

Datos:

\(p_{0} = \frac{30}{120}=0.25\)

\(P = 0.20\)

\(Q = 1 - P = 0.80\)

\(n = 120\)

\(Z_{95\%} = 1.96\)

Entonces:

\(H_{0}: p_{0} = P\)

\(H_{i}: p_{0} \neq P\)

Luego, sustituimos y operamos:

\(Z = \frac{0.25-0.20}{\sqrt{\frac{0.20*0.80}{120}}}=1.369\)

Decisión: se acepta la Ho, dado que \(Z_{c}\) < 1,96

El p-valor es: 0.1709993 y como es mayor a 0.05, Aceptamos la Ho

CONTRASTE DE HIPOTESIS PARA DIFERENCIA DE PROPORCIONES

Se tomaron dos muestras independientes de tamaño 300 y 200 respectivamente. El 53% de los individuos de la muestra 1 tienen un peso normal para la edad y el 45% de los individuos de la muestra 2 tienen una peso normal para la edad. Determine si existen deferencias poblacionales a un nivel del 95%.

Datos:

\(p_{01} = 0.53\)

\(p_{02} = 0.45\)

\(n_{1} = 300\) \(n_{2} = 200\)

\(P = \frac{(300*0.53)+(200*0.45)}{300+200}=0.498\)

\(Q = 1 - P = 0.502\)

\(Z_{95\%} = 1.96\)

Entonces:

\(H_{0}: p_{01} = p_{02}\)

\(H_{i}: p_{01} \neq p_{02}\)

Luego, sustituimos y operamos:

\(Z = \frac{0.53-0.45}{\sqrt{0.498*0.502*\frac{1}{300}+\frac{1}{200}}}=1.752\)

Decisión: se acepta la Ho, dado que \(Z_{c}\) < 1,96

El p-valor es: 0.07977381 y como es mayor a 0.05, Aceptamos la Ho

ASOCIACIÓN ENTRE VARIABLES CONTÍNUAS

ANÁLISIS ESTADÍSTICO DE 2 VARIABLES

Para aproximarse al conocimiento de un determinado fenómeno o hecho (social o biológico), es necesario estudiar más de una variable.

Se debe estudiar la relación (estadística) que exista entre muchas variables.

Correlación

  • Indica el grado o cantidad de asociación entre dos variables continuas.
  • NO se asume que una variable influya sobre otra (como en las regresiones o ANOVA que se verán más tarde), sino que ambas variables covarían, es decir, varían conjuntamente o también que son interdependientes.
  • Por lo tanto, no se asume que una variable es dependiente y la otra independiente.

CORRELACIÓN

  • Se puede asumir que ambas variables son efecto de una causa común.

  • Las correlaciones también pueden servir para explorar la asociación entre variables sin importar si una es dependiente de la otra (estadística exploratoria).

  • Vamos a querer estimar el grado en que ambas variables varían conjuntamente.

Por ejemplo, ¿Durante el crecimiento de un individuo cómo se correlaciona el crecimiento del miembro superior (o parte de éste) con el miembro inferior?

¿Cuál es la correlación entre el peso para la edad y la talla para la edad en niños entre 0 a 3 años?

¿La longitud Glabelo-occipital se correlaciona con la Achura Maxima Craneal entre lo cráneos de la muestra de William W. Howells?

CORRELACIÓN DE PEARSON

El coeficiente de correlación de Pearson es una medida de dependencia lineal entre dos variables aleatorias cuantitativas. Es un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas y continuas.

Objetivo \(\rightarrow\) Establecer el grado de asociación o correlación entre 2 variables continuas

Sintetiza en un solo valor, el tipo de asociación: Positiva, Negativa, o Nula.

CORRELACIÓN DE PEARSON

Karl Pearson fue un prominente científico, matemático y pensador socialista británico, que estableció la disciplina de la estadística matemática. Se enfocó en la aplicación de los métodos estadísticos en la biología y fue el fundador de la bioestadística.

Pearson desarrolló la formulación matemática del coeficiente de correlación, pero su idea y concepto se debe a otro investigador inglés llamado Francis Galton.

Básicamente el coeficiente de correlación se determina como correlación producto momento de Pearson, que no es más que suma de productos de ambas variables para cada sujeto (covarianza) partido por la multiplicación de la desviación estándar de cada variable

INTERPRETACIÓN DE LA CORRELACIÓN DE PEARSON

La correlación resulta un valor entre: -1 < r < +1

Cuando es Positiva significa que hay una relación directa, es decir, indica que cuando el valor de una variable aumenta, la otra también aumenta, o cuando una disminuye, la otra también disminuye.

Cuando es Negativa, significa que la relación es inversa, es decir, cuando uno aumenta, la otra disminuye y viceversa.

Cuando es igual a cero, no existe alguna relación o asociación entre las variables investigadas

Niveles de Correlación del Coeficiente de Pearson

INTERPRETACIÓN DEL CORRELACIÓN DE PEARSON

Además, las correlaciones de Pearson pueden tener significación estadística, es decir, tienen asociado un p-valor

Por lo tanto, pueden existir correlaciones leves o moderadas pero significativas . Correlaciones fuertes siempre son significativas.

Problemas asociados a las correlaciones

Todos estos ejemplos tienen r = 0.816

Entonces, no solo deben guiarse por los coeficientes calculados, sino también utilicen GRAFICOS DE DISPERSION para determinar el tipo y la forma de la correlación

LIMITACIONES DE LA CORRELACIÓN DE PEARSON

Una limitación importante de Pearson es que debe asumir NORMALIDAD BIVARIADA de las variables de interés.

Por lo tanto, se han propuesto otros índices para sortear esta limitación

  • Correlación \(\tau\) (tau) de Kendall (no es un parámetro sino que un estadístico)
  • Calcula el coeficiente de una variable rankeada. El ranking se puede realizar de diferentes formas.
  • La correlación de Spearman es similar al tau de Kendall, aunque su cálculo es diferente.
  • Ambas correlaciones son NO PARAMETRICAS, es decir, no asume una distribución a priori de las variables de interés.
  • Kendall es más favorable en ciertos sentidos que Spearman.
  • Kendall es útil para tamaños muestrales pequeños
  • Kendall es más útil tratando datos extremos (outliers)
  • Spearman cuando una o ambas variables son ordinales
  • En general se prefiere tau de Kendall a Spearman

CORRELACIONES ESPURIAS Y PARCIALES

Un elemento importante a destacar es que la correlación no implica causalidad.

Debido a que una correlación no indica causalidad, pueden darse casos en donde dos variables se encuentran correlacionadas sin tener sentido alguno.

P.e. Si tomamos todas las ciudades chilenas ¿Es posible que exista una correlación entre la cantidad de iglesias y la cantidad de asaltos en un periodo determinado?

¿O una correlación entre la cantidad de asaltos y la cantidad de suicidios en un periodo determinado?

A estas correlaciones sin sentido, se les llaman correlaciones ESPURIAS (Que es falso, ilegítimo o no auténtico.)

Una relación espuria es un vínculo aparente entre dos eventos que se demuestra inválido cuando se examina la relación con mayor detalle.

¿Por qué se dan este tipo de correlaciones?

Este ejemplo muestra una correlación muy fuerte entre las tasas de divorcio y el consumo de margarina

¿Significa esto que la margarina causa divorcios?

CORRELACIONES ESPURIAS Y PARCIALES

La aparente relación se debe a la existencia de terceros factores no contemplados que causan la relación o está correlacionados con ambos.

Entonces, la posible correlación entre dos variables se esté dando porque una tercera variable esté condicionando esta relación.

¿Qué pasa si controlamos, quitamos el efecto o removemos el efecto de esta tercera variable?

¿Se sigue dando esta correlación que consideramos sin sentido?

Correlación parcial: herramienta estadística que evalúa la magnitud de asociación entre dos variables continuas controlando el efecto de una tercera variable (confusora). Es decir, manteniendo constante el efecto de la tercera variable.

No solo con una tercera variable confusora, sino también con una cuarta, quinta, etc. variables confusoras.

La fórmula para calcular la correlación parcial entre la variable A y la variable B mientras se controla la variable C es la siguiente:

EJEMPLO DE CORRELACIONES PARCIAL

Edad Peso Talla
33 48.5 153.5
34 50.8 153.4
39 62 157.2
40 55.9 161
45 68 177.5
47 73 179
47 81.1 182
50 69 162
61 73.3 154.5
75 77.2 170

r(peso,talla) = 0.70947022

r(peso,edad) = 0.751486843

r(talla,edad) = 0,280264833

\(Correlación \enspace parcial_{(peso,talla)}=\frac{(0.7095-0.7515*0.2803)}{\sqrt{(1-0.7515^2)(1-0.2803^2)}}=0.787698\)

p-valor = 0.011712803

Por tanto, la correlación entre el Peso y la Talla es de 0.787698 si la edad permanece constante, es decir, la correlación es 0.787698 si se retira o controla el efecto de la edad. Así mismo el p-valor es menor a 0.05, por tanto, es estadisticamente significativo.

…A PRACTICAR!!

PRACTICA

Usaremos una muestra aleatoria de tamaño 200 de la Encuesta nacional de Consumo Alimentario del 2014, ya trabajadas en clases anteriores (base_enca2014_200.xlsx)

Llamamos la librería readxl y cargamos nuestro excel

library(readxl)
datos <- read_excel("data/base_enca2014_200.xlsx")  #Cargamos la base

Agregamos las etiquetas a los códigos de las variables categóricas

datos$nse <- factor(datos$nse, labels = c("Alto", "Medio_alto", "Medio", "Medio_Bajo", "Bajo"))
datos$sex <- factor(datos$sex, labels = c("Hombre","Mujer"))
datos$macrozona <- factor(datos$macrozona, labels = c("Norte","Centro Norte","Centro Sur","Sur","RM"))
datos$area <- factor(datos$area, labels = c("Urbano","Rural"))

Seleccionamos la variable Peso en Kilogramos (wgt) y hacemos un summary() para revisar la variable

summary(datos$wgt)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  34.10   61.00   68.90   71.21   79.03  114.20 

PRACTICA …continuación

Al no ver nada extraño, procedemos a verificar si esta variable si se ajusta a la normalidad

library(nortest)         #llamamos esta librería para usar el lillies.test()
lillie.test(datos$wgt)   #Aplicamos la prueba de normalidad de Kolmogorov-Smirnov (c/corrección de Lilliefors)
    Lilliefors (Kolmogorov-Smirnov) normality test

data:  datos$wgt
D = 0.076351, p-value = 0.006484
shapiro.test(datos$wgt)  #Aplicamos la prueba de normalidad de Shapiro-Wilk
    Shapiro-Wilk normality test

data:  datos$wgt
W = 0.97193, p-value = 0.0004919

Observamos que tanto el lillies.test como shapiro.test, rechazan la normalidad, por tanto procedemos a transformar la variable para evualuar nuevamente el ajuste.

#Aplicamos transformación de la raiz cuadrada
lillie.test(sqrt(datos$wgt))  #realizamos la transformación para garantizar el ajsute a la normal
    Lilliefors (Kolmogorov-Smirnov) normality test

data:  sqrt(datos$wgt)
D = 0.057148, p-value = 0.1145
#shapiro.test(sqrt(datos$wgt)) #realizamos la transformación para garantizar el ajsute a la normal

PRACTICA …continuación

Vemos que con la transformación de la raiz cuadrada, si se ajusta a la normal, por tanto, procedemos a realizar la transformación en la base para poder usarla posteriormente.

datos$wgt_sqrt <- sqrt(datos$wgt)

La nueva variable wgt_sqrt es la que vamos utilizar y procedemos a graficarlo

library(ggplot2)
ggplot(data=datos, aes(sample = wgt_sqrt)) + 
  stat_qq() + stat_qq_line(col="red")+
  xlab('Teoricas')+ylab('Observadas')+theme_light() + ggtitle("qq-plot de Peso transformado (wgt_sqrt)")

PRACTICA …continuación

CONTRASTE DE HIPÓTESIS PARA LA MEDIA

Supongamos que conocemos que el promedio poblacional del peso adulto de los chilenos es 74.1 kgr producto del informe del Estado Nutricional del Ministerio de la Salud del 2017 y queremos saber si difiere del promedio muestral al 95% de confianza.

#Para aplicar el z-test es necesario instalar el paquete BSDA
#install.packages("BSDA")
#OJO: como la variable peso está transformada, el valor del parámetro poblacional 
#tambien debe estar transformado
library(BSDA)
z.test(x=datos$wgt_sqrt, mu=sqrt(74.1), sigma.x=sd(datos$wgt_sqrt), conf.level=0.95)
    One-sample z-Test

data:  datos$wgt_sqrt
z = -3.5601, p-value = 0.0003706
alternative hypothesis: true mean is not equal to 8.608136
95 percent confidence interval:
 8.280608 8.513191
sample estimates:
mean of x 
   8.3969 

En conclusión como el p-value es menor a 0.05, rechazamos la Ho de igualdad. Es decir, existen diferencias significativas entre el promedio muestral y el promedio poblacional.

PRACTICA …continuación

Ahora aplicamos el t-test

t.test(x=datos$wgt_sqrt, mu=sqrt(74.1),conf.level = 0.95)
    One Sample t-test

data:  datos$wgt_sqrt
t = -3.5601, df = 199, p-value = 0.0004636
alternative hypothesis: true mean is not equal to 8.608136
95 percent confidence interval:
 8.279897 8.513903
sample estimates:
mean of x 
   8.3969 

Obtenemos la misma conclusión que con el z.test, es decir, rechazamos la Ho de igualdad, dado que el p-value es menor a 0.05, por tanto, existen diferencias significativas entre el promedio muestral y el promedio poblacional.

PRACTICA …continuación

CONTRASTE PARA LA DIFERENCIA DE 2 MEDIAS MUESTRALES

Ahora queremos ver si hay diferencias en el peso por género. Hacemos un boxplot para visualizar.

ggplot(data=datos, aes(x=sex, y=wgt_sqrt, fill=sex)) +
  geom_boxplot(outlier.colour = "red" ) + 
  ggtitle('Grafico de Boxplot de Peso transformado por Genero') +
  stat_boxplot(geom = "errorbar", width = 0.25) + 
  stat_summary(fun=mean,geom="point",shape=18,size=3,color="black")+ theme_bw()

PRACTICA …continuación

Para aplicar el z.test debemos segmentar el peso por el género

peso_mas <- datos[datos$sex=="Hombre" , "wgt_sqrt"]
peso_fem <- datos[datos$sex=="Mujer" , "wgt_sqrt"]

z.test(x=peso_mas$wgt_sqrt, sigma.x = sd(peso_mas$wgt_sqrt), 
       y=peso_fem$wgt_sqrt, sigma.y = sd(peso_fem$wgt_sqrt), conf.level=0.95)
    Two-sample z-Test

data:  peso_mas$wgt_sqrt and peso_fem$wgt_sqrt
z = 3.8338, p-value = 0.0001262
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.2230608 0.6896987
sample estimates:
mean of x mean of y 
 8.704956  8.248577 

Conclusión: como el p-value es menor a 0.05, rechazamos la Ho de igualdad, es decir, el promedio del peso es diferente según el género. En otras palabras existe dimorfismo para el peso.

PRACTICA …continuación

Para usar el t.test, debemos usar previamente la prueba de Levene para conocer si existe homocedasticidad entre los grupos. Para esto hay que instalar el paquete car.

library(car)
leveneTest(datos$wgt_sqrt, datos$sex) 
Levene's Test for Homogeneity of Variance (center = median)
       Df F value Pr(>F)
group   1  0.1844 0.6681
      198               

El test no permite rechazar la Ho, por tanto, decimos que existe homocedasticidad y especificamos var.equal=T para obtener un t de Student regular.

t.test(datos$wgt_sqrt~datos$sex,var.equal=TRUE ,conf.level=0.95)
    Two Sample t-test

data:  datos$wgt_sqrt by datos$sex
t = 3.7168, df = 198, p-value = 0.0002625
alternative hypothesis: true difference in means between group Hombre and group Mujer is not equal to 0
95 percent confidence interval:
 0.2142404 0.6985191
sample estimates:
mean in group Hombre  mean in group Mujer 
            8.704956             8.248577 
#t.test(peso_mas$wgt_sqrt, peso_fem$wgt_sqrt,var.equal=TRUE ,conf.level=0.95)

Llegamos a la misma conclusión.

PRACTICA …continuación

CONTRASTE DE HIPOTESIS PARA PROPORCIONES

Supongamos que conocemos el porcentaje poblacional para el consumo Energía proveniente de carbohidratos en 51%

Para obtener el porcentaje de la muestra usaremos la variable ChoEnerPor. Como cada valor es un porcentaje, usaremos el promedio geométrico, ya previamente explicado, para obtener un único porcentaje.

library(psych)  # para usar el geometric.mean(), hay que usar este paquete
geometric.mean(datos$ChoEnerPor)
[1] 58.79112

El porcentaje de 58.79112, tenemos que convertirlo a proporción para poder convertirlo en un frecuencia absoluta.

#La frecuencia la guardamos en un objeto llamado cho
cho <- round((geometric.mean(datos$ChoEnerPor) / 100)*nrow(datos))
cho
[1] 118

La frecuencia absoluta es 118, es decir hay 118 personas que consumen carbohidratos.

PRACTICA …continuación

CONTRASTE DE HIPOTESIS PARA PROPORCIONES

Para realizar el contraste de proporciones usaremos la función prop.test(), previamente ya descrita en clases anteriores.

#OJO: El parámetro porblacional se debe transformar a proporción.
prop.test(x=cho, n=nrow(datos), p=0.51, conf.level=0.95)  
    1-sample proportions test with continuity correction

data:  cho out of nrow(datos), null probability 0.51
X-squared = 4.8069, df = 1, p-value = 0.02835
alternative hypothesis: true p is not equal to 0.51
95 percent confidence interval:
 0.5182510 0.6582337
sample estimates:
   p 
0.59 

Conclusión: como el p-value es menor a 0.05, rechazamos la Ho de igualdad, esto quiere decir que existe diferencia significativa de la proporción entre la muestra y la población

PRACTICA …continuación

CONTRASTE DE HIPOTESIS PARA DIFERENCIA DE PROPORCIONES

Ahora queremos saber si existe diferencia por género entre la porporción de los consumidores de carbohidratos.

Para esto, hacemos el mismo procedimiento, pero segmentandolo por género. Primero obtenemos los “n” de cada género

n_mas <- nrow(datos[datos$sex=="Hombre" , "ChoEnerPor"])  #65
n_fem <- nrow(datos[datos$sex=="Mujer" , "ChoEnerPor"])  #135
n_mas
[1] 65
n_fem
[1] 135

Luego obtenemos las frecuencias absolutas del consumo de carbihidratos para cada género.

cho_mas <- round((geometric.mean(datos[datos$sex=="Hombre" , "ChoEnerPor"]) / 100)*n_mas) #hay 39
cho_fem <- round((geometric.mean(datos[datos$sex=="Mujer" , "ChoEnerPor"]) / 100)*n_fem) #hay 79
cho_mas
ChoEnerPor 
        39 
cho_fem
ChoEnerPor 
        79 

PRACTICA …continuación

CONTRASTE DE HIPOTESIS PARA DIFERENCIA DE PROPORCIONES

Luego hacemos el contraste con los valores previamente calculados

prop.test(x=c(cho_mas, cho_fem),  n=c(n_mas,n_fem), conf.level=0.95)
    2-sample test for equality of proportions with continuity correction

data:  c(cho_mas, cho_fem) out of c(n_mas, n_fem)
X-squared = 0.00212, df = 1, p-value = 0.9633
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.1418092  0.1714388
sample estimates:
   prop 1    prop 2 
0.6000000 0.5851852 

Conclusión: como el p-value es mayor a 0.05, no podemos rechazar la Ho, por tanto decimos que no hay diferencias entre la porporción de consumidores de carbohidratos por género.

PRACTICA …continuación

CORRELACION

Para aplicar la correlación de Pearson, debemos verificar la normalidad de las dos variables continuas a estudiar. Por ejemplo el Peso (wgt) y la talla (wgt)

lillie.test(sqrt(datos$wgt))
    Lilliefors (Kolmogorov-Smirnov) normality test

data:  sqrt(datos$wgt)
D = 0.057148, p-value = 0.1145
lillie.test(sqrt(datos$ht))
    Lilliefors (Kolmogorov-Smirnov) normality test

data:  sqrt(datos$ht)
D = 0.092522, p-value = 0.0002663



Como ninguna se ajusta a la normal, intentamos hacer transformaciones para mejorarlas.

shapiro.test(sqrt(datos$wgt))
    Shapiro-Wilk normality test

data:  sqrt(datos$wgt)
W = 0.98691, p-value = 0.06177
shapiro.test(sqrt(datos$ht))
    Shapiro-Wilk normality test

data:  sqrt(datos$ht)
W = 0.97031, p-value = 0.0003085



Como solo el peso se ajusta la normal, no podemos usar Pearson. Por tanto, podemos usar la correlación no-paramétrica: Spearman o kendall

PRACTICA …continuación

CORRELACION

Comenzamos usando el coeficiente de correlación de Spearman

cor.test(datos$wgt, datos$ht, method = "spearman",exact=FALSE)
    Spearman's rank correlation rho

data:  datos$wgt and datos$ht
S = 739489, p-value = 3.893e-11
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.4453693 

Probamos tambien el coeficiente de correlación de kendall

cor.test(datos$wgt, datos$ht, method = "kendall",exact=FALSE)
    Kendall's rank correlation tau

data:  datos$wgt and datos$ht
z = 6.353, p-value = 2.111e-10
alternative hypothesis: true tau is not equal to 0
sample estimates:
      tau 
0.3035102 

PRACTICA …continuación

CORRELACION

Graficamos la correlación, mediante el Grafico de Dispersión

ggplot(datos, aes(x = ht, y = wgt)) + 
  geom_point() + ggtitle('Grafico de Dispersión') + theme(legend.position = "none") +
  theme_light() + geom_smooth(method = "lm", se = FALSE)

PRACTICA …continuación

MATRIZ DE CORRELACIONES

Buscar la correlación entre 3 variables wgt, energia_kc, cho_g_dia, Pero primero evaluamos si se ajustan a la normal.

lillie.test(log(datos$wgt))
    Lilliefors (Kolmogorov-Smirnov) normality test

data:  log(datos$wgt)
D = 0.037743, p-value = 0.6955
lillie.test(log(datos$energia_kc))
    Lilliefors (Kolmogorov-Smirnov) normality test

data:  log(datos$energia_kc)
D = 0.061803, p-value = 0.0607
lillie.test(log(datos$cho_g_dia))
    Lilliefors (Kolmogorov-Smirnov) normality test

data:  log(datos$cho_g_dia)
D = 0.048139, p-value = 0.3109



Hacemos una nueva base solo con las variables seleccionas

datos2 <- datos[, c("wgt", "energia_kc", "cho_g_dia")]
cor(log(datos2), method = "pearson")  #la función cor(), nos permite una matriz de correlación
                    wgt  energia_kc   cho_g_dia
wgt         1.000000000 0.001472497 -0.05981235
energia_kc  0.001472497 1.000000000  0.89986169
cho_g_dia  -0.059812347 0.899861691  1.00000000

Podemos hacer una representación gráfica de la correlación con el paquete corrplot

#install.packages("corrplot")    #Lo instalamos previamente
library(corrplot)

PRACTICA …continuación

MATRIZ DE CORRELACIONES

Entonces con la función corrplot() podemos representar gráficamente una matriz de correlaciones

corrplot(cor(log(datos2), method = "pearson"), method ="number", 
         tl.col = "black", tl.srt = 20,
         col=colorRampPalette(c("blue","lightblue","red"))(100))

PRACTICA …continuación

CORRELACIONES PARCIALES

Para realizar las correlaciones parciales, vamos a plantearnos la correlación entre el Peso (wgt) y la Talla (ht), controlando la Edad (ageyrs)

Sabemos que la talla no se ajusta a normal. Aplicaremos la correlación de Spearman

#Volvemos a realizar la correlación de spearman sin controlar el efecto de la edad
cor.test(datos$wgt, datos$ht, method = "spearman",exact=FALSE)  
    Spearman's rank correlation rho

data:  datos$wgt and datos$ht
S = 739489, p-value = 3.893e-11
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.4453693 
#install.packages("ppcor")    #Usamos paquete ppcor para realizar la correlación parcial
library(ppcor)
pcor.test(x=datos$ht, y=datos$wgt, z=datos$ageyrs, method = "spearman")  #Aqui controlamos por la edad
   estimate      p.value statistic   n gp   Method
1 0.4573582 1.113879e-11  7.218548 200  1 spearman

Observamos que la correlación aumentó un poco (0.457) y es significativa (p-value < 0.05)

Por tanto, la correlación aumenta si la edad permanece constante.